一天之内,智谱和 Anthropic 都发了最强编程模型

作者: 阮一峰

日期: 2025年10月 1日

1、

假期前最后一天(9月30日),热闹非凡。

上午,Anthropic 公司发布了 Claude Sonnet 4.5 模型

下午,智谱公司发布了 GLM 4.6 模型

我觉得,对于程序员,这个动态很重要。

因为这两个模型都属于目前最先进的 AI 编程模型。你想让 AI 生成代码,首选就是它们。

这就是说,一天之内,AI 编程模型又达到了新高度。

2、

Anthropic 发布公告的第一句话,就毫不谦虚地用了三个"世界之最"。

"Claude Sonnet 4.5 是世界上最好的编码模型。它是构建复杂代理的最强大模型。它是使用计算机的最佳模型。它在推理和数学方面表现出显著的进步。"

智谱的发布公告也是当仁不让。

"我们再次突破大模型的能力边界。

GLM-4.6是我们最强的代码 Coding 模型(较 GLM-4.5 提升27%)。在真实编程、长上下文处理、推理能力、信息搜索、写作能力与智能体应用等多个方面实现全面提升。"

为了让人信服,智谱的发布公告还给出了详细的测试结果。

上图一共是8个测试基准的结果图。每个图的蓝柱是 GLM-4.6,绿柱是 GLM-4.5。对照组是前两天刚发布的 DeepSeek V3.2 Exp、Claude sonnet 4、Claude sonnet 4.5。

可以看到,蓝柱基本上都是排名前列,甚至第一。智谱还声称,GLM-4.6 非常节省 Token(也就是省钱),"比 GLM-4.5 节省30%以上,为同类模型最低"。

所以,它的结论就是:"GLM-4.6 在部分榜单表现对齐 Claude Sonnet 4/Claude Sonnet 4.5,稳居国产模型首位。"

这就有意思了,一个自称"世界上最好的编码模型",另一个自称"稳居国产模型首位"。

下面,我来测试,GLM-4.6 相比 Claude sonnet 4.5 到底怎么样。

3、

需要说明的是,这两个模型的比较,不完全是为了测试,也有实际的意义。

Anthropic 公司虽然产品很强,但是它限制中国人使用,国内用户正常途径无法开通它的服务。另一方面,它是付费模型,价格也不便宜,百万 token 的输入输出价格是3美元/15美元。

形成鲜明对照的是,GLM-4.6 是完完全全的国产模型,来自北京智谱公司。它采取彻底的开源路线(MIT 许可证),模型代码完全公开,可以任意使用。

你要想自己在家里安装,也是可以的。但是,它的硬件要求太高,家用设备达不到,所以,一般都使用它的云服务。

目前,智谱的官网(BigModelZ.ai),通过 Web 界面使用 GLM-4.6 是免费的。

它的 API 调用需要付费,入门套餐(coding plan)好像是一个月20元人民币。

另外,它有完备的中文支持(文档+客服),这也是 Anthropic 没有的。

总之,我的测试目的,也是想看看,它是不是真如官方宣称的那样强大,能不能替代 Claude Sonnet 模型。

4、

我的测试方法很简单。Anthropic 公司事先邀请了著名程序员西蒙·威利森(Simon Willison),试用 Claude Sonnet 4.5 模型。

西蒙·威利森已经在他的网站上,公布了试用结果

我就拿他的几个测试,用在 GLM-4.6 上面,然后比较一下运行结果就可以了。

大家可以跟着一起做,打开官网,把题目粘贴进去(最好贴英文),这样会有更深切的感受。

AI 终端工具(比如 Claude Code、Cline、OpenCode、Crush 等)也可以用,参考官方文档进行设置(需要先开通 API)。

5、

第一个测试。

拉取代码仓库 https://github.com/simonw/llm ,然后通过下面的命令运行测试用例。

pip install -e '.[test]'

pytest

这个测试需要联网获取代码,然后在后台运行。

智谱官网的 Web 界面跟 Claude 一样,提供 Python 和 Node.js 的服务器沙箱环境,可以生成后直接执行代码。

我省略它中间的推理步骤了,最后结果如下图(官网查看完整对话)。

278个测试用例通过,耗时 18.31s

整个运行过程(拉取、安装依赖、执行命令)跟 Claude Sonnet 是一样的。奇怪的是,Claude Sonnet 运行了466个测试用例,多出来100多个,不知道为什么。

6、

第二个测试是较复杂的编程任务,原始提示是英文,我翻译成中文。

1、 代码仓库 https://github.com/simonw/llm 是一个 AI 对话应用,它将用户的提示和 AI 的响应存储在 SQLite 数据库中。

2、它目前使用线性集合,保存单个对话和响应。你尝试在响应表中添加一个 parentresponseid 列,并通过该列将对话的响应建模为树状结构。

3、编写新的 pytest 测试用例,验证你的设计。

4、编写一个 tree_notes.md 文件,首先将你的设计写入该文件,然后在运行过程中将该文件用作笔记。

大家可以查看完整的对话记录

GLM-4.6 运行了几分钟,不停地吐出生成的代码。最终,它修改了脚本,增加了 API 和命令行调用接口,并编写和运行通过了测试用例。

它还生成了一个 tree_notes.md 文件,里面是本次修改的详细说明。

大家可以比较它的运行结果与 Claude Sonnet 的运行结果

从结果上看,它们的差异不大,都做到了提示的要求,并且代码都是可运行的。差异主要是实现细节,这个就需要详细阅读代码了。

7、

第三个测试是西蒙·威利森独家的,就是让 AI 生成一个鹈鹕骑自行车的 SVG 图片(Generate an SVG of a pelican riding a bicycle)。

这是现实中不存在、且没有参考物的景象,考察模型的想象和生成能力。

下面是 GLM-4.6 打开深度思考后生成的图片

下面是 Claude sonnet 4.5 打开深度思考后生成的图片。

两者的结果相当接近,只是 Claude 生成的鸟喙更明显,更能看出是一只鹈鹕。

8、

测试就到这里,我觉得总结来说,GLM-4.6 是一个非常强的国产模型,编码能力确实很优秀,可以当作目前公认的最强模型 Claude Sonnet 的替代品。

它的功能全面,除了编码,其他任务也能完成,而且响应速度快,价格低,性价比非常突出。

(完)

留言(1条)

当编程工作变得如此便捷快速,程序员的技能该如何进化?

我要发表看法

«-必填

«-必填,不公开

«-我信任你,不会填写广告链接